[Talend]tRSSInputを利用してRSSフィードを読み込む
はじめに
こんにちは。DI部の大高です。
今回はTalendのコンポーネント「tRSSInput」を紹介したいと思います。
前提条件
Talendのバージョンは「Talend Open Studio for Big Data」の「Version 7.0.1」で検証しています。
tRSSInputについて
「tRSSInput」を利用するとRSSフィードを読み込むことができます。
「tRSSInput」コンポーネントのTalend Helpページはこちらです。
では、具体的に以下で解説していきます。
ジョブの説明
「tRSSInput」でRSSフィードを読み込み、「tLogRow」で読み込んだフィードを標準出力に表示します。
「tRSSInput」コンポーネントの設定
外部モジュールのインストール
「tRSSInput」コンポーネントですが、パレットからドラッグ&ドロップした段階で外部モジュールのインストールが促されますので「インストール...」をクリックします。
インストール対象のモジュール「feed4j.jar」と「nekohtml.jar」が表示されていますので「全てのモジュールをダウンロード及びインストール」をクリックしてインストールします。
インストール後には警告が消えて問題なく利用できるようになります。
コンポーネントの設定
コンポーネントには取得したいRSSフィードの情報を設定していきます。
RSS URL
取得したいRSSフィードのURLを指定します。今回はDevelopers.IOのRSSフィードを指定してみました。
から規約を読む
このオプションを有効にすると、指定した日時以降のRSSフィードを取得することができます。
今回は「2018-10-30 00:00:00」を指定してみました。
=最大記事数
このオプションを有効にすると、「最大量」として読み込む記事数を絞り込むことができます。
今回は「10」件にしてみました。
エラー強制終了
このオプションを有効にするとエラー発生時にジョブが強制終了するようになります。
今回は有効にしてみました。
スキーマ定義
スキーマ定義は固定となっており、以下のとおりとなります。
「tLogRow」コンポーネントの設定
RSSフィードの情報はそれなりに文字数が多いので、「tLogRow」コンポーネントでは「モード」を「縦に出力」として読みやすくしてみました。
実行結果
設定は以上です。実際にこのジョブを実行すると以下のように出力されます。
[statistics] connecting to socket on port 3822 [statistics] connected .----------------------------------------------------------------------------------------------------------------------------------. | #1. tLogRow_1 | +-------------+--------------------------------------------------------------------------------------------------------------------+ | key | value | +-------------+--------------------------------------------------------------------------------------------------------------------+ | TITLE | Web×IoTメイカーズチャレンジ2018-19 in 札幌にチューターとして参加してきました | | DESCRIPTION | こんにちはさかじです。今日は技術的な話ではないですが ハンズオン 2018/10/13(土) – 14(日) ハッカソン 2018/10/27(土) – 28(日) 計4日に渡って実施された総務省北海道総合通信局Web× […] | | PUBDATE | 30 Oct 2018 00:52:37 GMT | | LINK | https://dev.classmethod.jp/references/web_iot_maker_sapporo/ | +-------------+--------------------------------------------------------------------------------------------------------------------+ .----------------------------------------------------------------------------------------------------------------------------------. | #2. tLogRow_1 | +-------------+--------------------------------------------------------------------------------------------------------------------+ | key | value | +-------------+--------------------------------------------------------------------------------------------------------------------+ | TITLE | AWS WAFフルログでRedactedを使ってセンシティブ情報を記録しないようにしてみた | | DESCRIPTION | こんにちは、臼田です。 皆さん、WAF使ってますか? 先日フルログを取得できるようになったAWS WAFですが、その際にRedacted機能も追加されたのでこれを紹介したいと思います。 フルログ自体については下記をご参照 […] | | PUBDATE | 30 Oct 2018 00:43:32 GMT | | LINK | https://dev.classmethod.jp/cloud/aws/use-redacted-in-aws-waf/ | +-------------+--------------------------------------------------------------------------------------------------------------------+ .----------------------------------------------------------------------------------------------------------------------------------. | #3. tLogRow_1 | +-------------+--------------------------------------------------------------------------------------------------------------------+ | key | value | +-------------+--------------------------------------------------------------------------------------------------------------------+ | TITLE | 【速報】マルチAZなRDSもインスタンスの停止に対応しました! | | DESCRIPTION | 以前はシングルAZなRDSでしか対応していなかったRDSの停止ですが、突如としてマルチAZなRDSでも停止処理に対応しました!! Amazon RDS Enables Stopping and Starting of M […] | | PUBDATE | 29 Oct 2018 22:21:30 GMT | | LINK | https://dev.classmethod.jp/cloud/aws/stopping-multiaz-instance/ | +-------------+--------------------------------------------------------------------------------------------------------------------+ .----------------------------------------------------------------------------------------------------------------------------------. | #4. tLogRow_1 | +-------------+--------------------------------------------------------------------------------------------------------------------+ | key | value | +-------------+--------------------------------------------------------------------------------------------------------------------+ | TITLE | re:Invent公式アプリが2018対応しました #reinvent2018 | | DESCRIPTION | AWS re:Invent公式アプリがアップデートされました re:Invent参加者にとって必需品とも言えるAWS re:Inventアプリが更新され、2.0.0になり、2018年版となりました。 ダウンロードは、以下 […] | | PUBDATE | 29 Oct 2018 17:06:31 GMT | | LINK | https://dev.classmethod.jp/cloud/aws/reinvent-app-2018/ | +-------------+--------------------------------------------------------------------------------------------------------------------+ [statistics] disconnected
「https://dev.classmethod.jp/feed」のフィード情報が読み込まれました!なお、「PUBDATE」はGMTなので日本時間で考える(+9時間)と、一番古い記事は設定どおり「2018-10-30 00:00:00」以降になっています。
まとめ
以上、「tRSSInput」コンポーネントの紹介でした。
RSSフィードを読み込んでなにか処理をしたい場合には「tRSSInput」コンポーネントが利用できるかと思います。
それでは。